前言

在收集完期刊和会议的论文目录后，于 3.20-3.21 挑了三篇有关 Text Detection 的论文看了看。

正文

Mask TextSpotter 在 paperwithcode 上居然有三个版本……看来是个很高级的东西了。

提出了一个端到端模型，分为两个子模型：

亮点：

模型结构：

Mask TextSpotter 的灵感来自于 R-CNN，分成四个部分：

作为骨干的特征金字塔网络（FPN）
- 从单一尺度输入中融合不同分辨率的特征，以边际成本提高精度
生成文本建议的区域建议网络（RPN）
- 为后续的 Fast R-CNN 和 mask branch 生成文本建议，分配锚点
- 输出用于文本实例分割的映射和用于字符语义分割的字符映射
边界盒回归的快速 R-CNN
- 包含分类任务和回归任务
用于文本实例分割、字符分割和文本识别的 mask branch
- 检测和识别任意形状的文本
  - 文本实例分割
  - 字符分割
  - 文本序列分割

文字识别输出的 37 个类（英文字母和数字共 36 个，背景 1 个，这对中文识别好不好使啊？）

mask branch 的设计是论文的亮点，文章又详细介绍了 mask branch 的结构：

分为两个模块：

两个模块都可以提供识别结构和置信度分数。选择最高的作为最终识别结果。

设计了多任务损失函数：

$L=L_{rpn}+\alpha_1L_{rcnn}+\alpha_2L_{mask}$

总流程：

输入测试图像-获取 Fast R-CNN 的输出-通过 NMS 过滤掉冗余候选框-到 mask branch 中生成文本实例映射、字符映射、文本序列

经过实验后非常好使！

Star 数如此之多……看来很牛逼

基于分割的场景文本检测算法。简介中得知图像分割的任务大都采用特征金字塔或 U-Net 结构来融合不同比例尺的特征图，从而提高了分割网络的比例尺的鲁棒性。

文本检测算法有三种：

亮点：

提出了一个可微二值化模块（DB）——将二值化过程集成到一个分割网络中
- 传统阈值化： $B_{i,j}=\left\{\begin{matrix}1\ \mathrm{if}\ P_{i,j}\ge t,\\0\\mathrm{otherwise.}\end{matrix}\right.$
- 可微阈值化： $\hat B_{i,j}=\frac{1}{1+e^{-k(P_{i,j}-T_{i,j})}}$
- 然后就一堆数学公式 orz 看晕了
一种高效的自适应尺度融合模块（ASF）——通过自适应融合不同尺度的特征来提高尺度的鲁棒性
- 看样子用了点注意力机制